基于骨架的动作识别引起了很多研究的关注。最近,为了构建基于骨架的动作识别器,已经提出了各种作品。其中,有些作品使用大型模型架构作为其识别剂的骨干来提高骨架数据表示能力,而其他一些作品则预先培训其识别器对外部数据的认可,以丰富知识。在这项工作中,我们观察到在各种自然语言处理任务中已广泛使用的大型语言模型通常具有大型模型构成和丰富的隐性知识。以此为动机,我们提出了一个新型的LLM-AR框架,其中我们将其视为将L ange l Anguage M Odel视为一种ction r ecognizer。在我们的框架中,我们提出了一个语言的进程过程,将每个输入动作信号(即每个骨架序列)投射到其“句子格式”(即“ Action句子”)中。此外,我们还将框架与几种设计结合起来,以进一步促进这种语言投影过程。广泛的实验证明了我们提出的框架的功效。
![arxiv:2404.00532v1 [CS.CV] 2024年3月31日PDF文件第1页](/bimg/8/8a73397926f0ace4f4fc9788150a953d0525fd70.webp)
![arxiv:2404.00532v1 [CS.CV] 2024年3月31日PDF文件第2页](/bimg/2/2b72017db08442647c4d3869343312b19638ea3b.webp)
![arxiv:2404.00532v1 [CS.CV] 2024年3月31日PDF文件第3页](/bimg/9/9d09137c2bca5f04b9c45828bc4a09a17dbdc701.webp)
![arxiv:2404.00532v1 [CS.CV] 2024年3月31日PDF文件第4页](/bimg/1/1e9c540390fc054baf44a8fe02295805be255745.webp)
![arxiv:2404.00532v1 [CS.CV] 2024年3月31日PDF文件第5页](/bimg/c/c8f8cd1de8c78bc91cee4e9862c3e35764c17305.webp)
